[2024年6月19日号]個人的に気になったModern Data Stack情報まとめ
さがらです。
Modern Data Stack関連のコンサルタントをしている私ですが、Modern Data Stack界隈は日々多くの情報が発信されております。
そんな多くの情報が発信されている中、この2週間ほどの間で私が気になったModern Data Stack関連の情報を本記事でまとめてみます。
※注意事項:記述している製品のすべての最新情報を網羅しているわけではありません。私の独断と偏見で気になった情報のみ記載しております。
Modern Data Stack全般
Understanding Business Needs - Staying Relevant As A Data Team
SeattleDataGuyさんにより、「Understanding Business Needs - Staying Relevant As A Data Team」というタイトルで、データチームは新しい技術を使えるか考えるよりもビジネスが何を必要としているかに集中することが大切であり、そのためにはどういった方法でプロジェクトを進めていくのがよいかをまとめた記事がでていました。
ポイントとしては、このあたりかと思います。
- データチームとビジネスチームの連携を図るには、両者が互いに頻繁に話し合う必要がある
- 早い段階で、データについては詳しくないがビジネスの専門家であるビジネスチームと話すことに多くの時間を費やすこと
- データチームやデータプロジェクトを率い始めたばかりのときは、どのようなテクノロジーや手法を使用すべきかを検討したくなるかもしれない。しかし、テクノリジーや手法は正しく適用されなければ、実際のビジネス上の問題は解決されない
先日私がとてもいい資料だと感じてMDSまとめの2024年5月22日号でも触れました「使われないものを作るな!出口から作るデータ分析基盤」の資料でも、同じような観点で述べられていると思います。
「ビジネスのニーズに沿ってデータ基盤を構築していく」のは本当に重要ですね!
Atlan社によるSnowflake Data Cloud Summit 2024でのアンケート集計結果について
Atlan社が先日開催されたSnowflake Data Cloud Summit 2024で参加者に対してアンケートを行い、700人以上のデータ関係者から回答を得られ、その内容をまとめた記事を出していました。
以下はリンク先の記事に書かれているアンケート結果の要約です。
- 51%がデータガバナンスの改善に注力している
- 54%がデータガバナンスの導入推進に苦労している
- Gen AIに最も期待しており、次いでData Productsに期待している
- 80%以上が、Gen AIのユースケースに関する詳細な計画をまだ持っていない(まだ調査や計画を練っている段階)
Data Warehouse/Data Lakehouse
Snowflake
Snowflake Data Clean Roomsが一般提供となり、AWS東京&大阪リージョンとAzure東京リージョンでも利用可能に
Snowflake Data Clean Roomsが一般提供となりました。
併せて、AWS東京&大阪リージョンとAzure東京リージョンでも利用可能となりました。
各MDS製品のSnowflake Data Cloud Summit 2024のレポート記事
MDS製品各社や海外のニュースサイトから、Snowflake Data Cloud Summit 2024に関するレポート記事が出ていました。
Databricks
Data + AI Summit 2024が開催
現地時間2024年6月10日~13日で、Databricksの年次最大のイベントである「Data + AI Summit 2024」が開催されました。
個人的に気になった発表はこの辺りです。
- Unity Catalogのアップデート:OSS化や、Unity Catalog上でdbtやCubeなどのサードパーティのSemantic Layerのツールとの統合をサポートを発表
- Databricksの全コンピュートリソースのSeverless化 ※詳細不明
- LakeFlow:Connect、Pipelines(元のDelta Live Tables)、Jobs(元のWorkflows)からなるDatabricks上のデータパイプライン構築機能の総称
- Mosaic AI:AIシステムの構築を簡素化し、品質を向上させるための各種機能群
- Databricks AI/BI:AIを用いたダッシュボード構築や、データに対する会話型インターフェースを持つ機能
- Databricks Predictive Optimization:クラスタリングの自動化など
各MDS製品のData + AI Summit 2024のレポート記事
MDS製品各社から、Data + AI Summit 2024に関するレポート記事が出ていました。
MotherDuck/DuckDB
MotherDuckが一般提供開始
先日DuckDB 1.0のリリースがありましたが、今度はMotherDuckが一般提供を開始しました。
DuckDBが拡張機能でDelta Lakeのサポートを発表
まだexperimentalですが、DuckDBがDelta Lakeを拡張機能でサポートすることを発表しました。
「DuckDB、Icebergは対応していないんだっけ」と思ったら別の拡張機能で対応済でした。
レイクハウスアーキテクチャになると、DuckDBの活躍できる所も増えると思うので期待しています!
Semantic Layer
Cube
2500万USDの資金調達を発表
Cube社が2500万USDの資金調達を発表しました。
Databricks社からの投資も受けているようです、DatabricksのSummitではUnity Catalog MetricsでCubeとの連携も発表していましたね。
Business Intelligence
Looker
Looker 24.10の発表
Lookerの最新バージョンである24.10のリリースノートが出ていました。
ツリーマップチャートが新しく作れるようになったようです。
Tableau
Tableau+の発表
Tableau CloudにEinstein CopilotなどのAI機能や管理系の機能を追加した「Tableau+」が発表されました。
Data Catalog
Select Star
Select Starの新機能とロードマップに関するイベントまとめ
Select Star Product Forumという年に一度のイベントが開催され、Select Starの新機能とロードマップについて発表がありました。
この内容についてまとめられたブログも投稿されています。
OpenMetadata
SaaS版のFree Tier(無料版)を発表
Open MetadataのSaaS版について、Free Tier(無料版)が発表されました。
まだWait Listに登録だけ行える状況ですが、これまでよりも簡単にOpen Metadataを試せるようになるのはありがたいですね!
🎉 New! Free Managed OpenMetadata from Collate 🚀
Unify data discovery, observability & governance in one platform for modern data teams, w/ features like:
☑️ Column-level lineage
☑️ Code-free data quality tests
☑️ Collaborative business glossary
Signup: https://t.co/J2V4qzzH5z pic.twitter.com/KL9wm4ppij— Open Metadata (@open_metadata) June 18, 2024
Data Activation (Reverse ETL)
Census
GUIベースの操作で複雑な計算を行う指標を定義できる「Computed Columns」を発表
Censusが新機能として、GUIベースの操作で複雑な計算を行う指標を定義できる「Computed Columns」を発表しました。
下図は公式ブログからの引用ですが、このように実際の計算式の形で指標を定義していくことが可能な機能です。
あとは私の最近Censusに感じていることですが、最近別途発表したDatasetsも含め、Census上でデータや指標を管理する機能を強化している印象があります。「簡易的なSemantic Layer&Reverse ETL」という感じでしょうか。他製品にないアプローチだと思いますので、今後の動向がきになるところです。
Data Quality・Data Observability
全般
Data Observabilityのユースケースまとめ
Decube社により、Data Observabilityのユースケースをまとめた記事が出ていました。
どのようなときに役立つか、具体例を交えつつ説明されていてわかりやすいと感じました。